Day17：處理缺失值與異常數據

2024 iThome 鐵人賽

DAY 17

自我挑戰組

16th鐵人賽 pyhton 生物醫學基因表現量網路爬蟲

179 瀏覽

在數據處理的過程中，清理數據是非常重要的一步，今天我將著重於處理數據中的缺失值與異常數據，這些數據可能是由於爬蟲過程中的解析錯誤導致的，因此需要再進行進一步的分析處理。

首先，我們需要檢查數據中的缺失值，並決定如何處理這些缺失值。通常，我們可以選擇刪除這些缺失值，或者使用其他方式來填充這些缺失數據。

missing_values = df.isnull().sum()
print(f"缺失值檢查結果：\n{missing_values}")
df.dropna(inplace=True)

在上面這段 Code 中中，我使用 isnull().sum() 方法來檢查每列的缺失值數量，然後我使用 dropna() 方法來刪除所有包含缺失值的行，這樣做可以確保數據不會因為缺失值而影響後續的分析。

接下來我要處理數據中的異常值，特別是基因的起始和結束位置不合理的情況，基因的起始位置應該總是小於結束位置，如果有起始位置大於結束位置的記錄，我需要將其清理掉

# 檢查並清理異常數據
df = df[df['End'] > df['Start']]

上面這段 Code 會篩選出那些起始位置大於結束位置的數據，並將其刪除，這樣我可以保證數據的正確性，並避免後續計算中的潛在錯誤，最後我再次檢查數據，確認所有數據已經被成功清理，並保存清理後的結果：

# 檢查清理後的數據
print(df.describe())
df.to_excel("清理後基因數據.xlsx", index=False)

這樣我就已經成功清理了數據中的缺失值和異常數據，並保存了清理後的結果

系列文

0 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22208 篇

完賽人數

600 人

IT邦幫忙